Avec le fichier XML de la base de données nous avons décide de choisir les colonnes comme suit, d'abord on étudie la corrélation de toutes les colonnes avec pandas

On a remarqué une forte corrélation entre certaines colonnes (tèes proche de 1), ce qui induit une grande liaison, ainsi en sachant cela et que nous avons à disposition un très grand nombre de colonnes nous allons nous limites à certaines colonnes choisis notamment grâce à notre observation et à la corréalation. On prend les colonnes voulus

Introduction

Nous allons maintenant et pour l'étude des différents Dataframe, nous allons prendre un échantillon de taille n de l'ensemble du dataframe, Pourquoi ? car nous disposons d'une trop groosse base de données presque 5min pour ouvrir avec pandas et encore on a dû arreter le chargement car vscode commencait à buguer :

alt text

Cette taille sera la meme pour tout les autres dataframe donc des différent mois, ici on commence par étudier le dataframe correspondant au 03/2019 (Un an vant la grosse vaque de covid en France)

On transforme notre dataframe pandas pour utiliser Pyspark

Première Étude

Quelle est la région où le plus de benificiaire 'BEN_RES_REG' et d'éxécutant 'ETE_REG_COD' puis une comparaison des deux est réalisé.

Ensuite on prend la tranche d’age 'AGE_BEN_SNDS' qui est la plus représentée, de même que sexe 'BEN_SEX_COD'.

On remarque qu'on a aucune valeurs nulles, pratique pour la suite. Donc pas besoin de nettoyer en supprimant les valeurs nulles.

On ouvre le fichier excel contenant les données nécessaire sur les différentes colonnes et on récupère la liste de toutes ses colonnes.

On remarque une valeur extreme pour les regions où les éxécutant de la demande se trouvent, nous allons l'enlever pour plus de visibilité, mais on peut en conclure que lors d'une demande à l'assurance maladie, les éxécutant n'indique pas leurs régions d'origine ou bien se trouvent à l'étranger mais au vu d'un nombre très grand la premiere raison est certainement la bonne. Après le deuxieme graphique nous allons montrer grâce au fichier execel que signifie ces valeurs (5,11,....,99)

Une meilleure visibilité :

On remarque que ce soit pour les éxécutant des demandes (médecin, chirurgien...) ou les bénéficiaires, c'est la région 11 qui a le plus de demandes ou bénéficiaires. Regardons sur l'excel à quoi correspond ces regions :

C'est la région ile de france, ce qui explique qu'elle soit en première place car la région compte 12 millions d'habitants dans son aire urbaine soit 1/6 environ de la population française (approx. 66 millions)

Deuxième partie de l'étude

On prend la tranche d’age 'AGE_BEN_SNDS' qui est la plus représentée, de même que sexe 'BEN_SEX_COD'.

Ici, on reste toujours, bien sûr, sur les bénéficiares.

Graphique : On déterminer le pourcentage d'hommes et de femmes de notre échantillon

Densité Oberservée A part à un age inconnu (99 la courbe qu'on observe à 100 ans environ) domminée par les femmes, le reste des tranche d'âge se sont les hommes. AVec nitamment que ce soit les hommes et les femmes dans la trache d'age de la soixante un très fort pic, pourquoi ? car à cet age-là le corps humain devient de plus en fragile etc et donc propice à plus souvent être malade pou blessé.

Maintenant pourquoi aux alentours de 99 (age inconnu) est dominée par les femmes ? Depuis les années 2000, les immigrés en France sont majoritairement des femmes et peut-etre que certains ne déclare pas leurs age pour X raisons (non-connaissances etc..), aussi la situation des sdf peut aussi l'expliquer. On pourrait aussi d'autres raisons.

Voici les différents types de tranche d'âge :

Pour finir cette Première Étude :

Montrons sur une carte de la France, la tranche d'âge la plus représentés par région (toujours pour les bénéficiaires)

La carte va s'afficher sur votre navigateur ou bien sur le notebook.

L'âge moyen en France se situe autour de la quarantaine

Deuxième Étude

Maintenant, regardons le nombre de soin remboursé à cause d'un accident du travail 'ATT_NAT'

Ensuite on prend la nature des prestation 'PRS_NAT' les plus représentés et ainsi la catégorie des prescripteurs PSP_ACT_CAT les plus représentés. Ici, le but de montré qu'elles sont les prestation les plus réprésentés mais aussi de mettre en évidence qui sont les prescipteurs qui font le plus de demandes (ordonnances...).

Enfin, nous allons aussi nous attarder sur les perssonnes possédant la CMU 'BEN_CMU_TOP' car la CMU complémentaire offre aux personnes à faibles revenus une assurance santé gratuite. Ainsi, le but est de montrer si les personnes à faible revenus sont plus soumis au danger d'etre malade etc mais aussi déterminer le prix moyen que cela coute 'PRS_PAI_MNT' et le comparé à la moyenne de tout l'échantillon.

On remarque peu de personnes ont fait l'objet d'un accident du travail, cependant beaucoup de demande ne font pas apparaitre l'objet cela peut signnifier deux choses soit : le bénéficiaire n'a pas eu un accident au travail soit le prescripteurs ou exécutant n'a pas fait apparaitre l'objet. On en conclu aussi une grosse erreur pourquoi ? dans une étude données il faut etre le plus précis et ici la précision manque au rendez-vous. Il faudrait apparaitre plus de catégories ou alors obligés les prescipreutr ou éxécutant à l'indiqué.

Maintenant, passons la dernière partie de cette deuxième étude.

Sur la figure ci-dessus, vous pourrez voir, le median, montant maximum ect envoyé à l'assurance maladie :

Petit rappel :

Numéro Asscoié : 0 Catégorie : Non bénéficiaire de la C2S
Numéro Asscoié : 1 Catégorie : Bénéficiaire de la C2S
Numéro Asscoié : 2 Catégorie : SANS OBJET (PE MSA)
Numéro Asscoié : 9 Catégorie : VALEUR INCONNUE

Dernière Étude

Maintenant, montrons les régions 'BEN_RES_REG' (régions de résidence des bénéficiaires) les plus dépensiaires en moyenne : 'PRS_PAI_MNT'. Nous regarderons aussi les montant remboursés : PRS_REM_TYP.

Pour conclure cette dernière étude sur un mois, on remarque une certaine corrélation sur certaines régions.

Passons à la seconde partie du projet, l'étude de plusieurs mois sur l'année de 2019 et 2020, nous allons aussi faire dans la troisième partie une corrélation avec un dataset sur le covid-19 et voir si par exemple l'age est un facteur (si la moyenne de l'age a augmenté et que de meme pour le covid)

Étudions si le sexe, l'age moyen et les montant dépensés en moyenne pour cette seconde partie :

Maintenant regardons l'age moyen sur ces 5 mois.

On remarque l'âge moyen est approximativement le même, que sur la carte plus haut concernant le mois de mars 2019. La tranche moyenne tourne autour de la quarantaine. Ce qui montre quelques soit le mois, les quarantenaire sont trés présent (ça peut aussi dire dans un cas extrême que y'a beaucoup de jeunes et beacoup de vieux mais comme c'est un cas absurde nous allons l'enlever)

De même que l'âge, le sexe est toujours aussi représenté de la même manière, avec un pourcentage d'hommes plus élevés. Au 1er janvier 2019, il y a 51,5% de femmes au sein de la population française parmi 66,9 millions de personnes vivant en France (inclus Mayotte). On remarque ce n'est pas représentés ici, cela peut signifier que les hommes sont plus propice au maladie, accident, etc...

Passons à l'étude des Paiments dépensés et remboursés par region sur ces 5 mois.

Grand changement par rapoort aux études précédentes, on remarque que la région Ile-de-France (11) dépasse toutes les regions sur la moyenne des paiements dépensés, de plus de nombreuses régions dépassent leurs moyennes précédentes. Pourquoi ? deux mois de notre dataset concerne le début de l'épidemie en France, or, l'ile de france est la region avec le plus d'habitants et 2 aéroports de classe internationales, ainsi elle a était la première touché, or les cout de soins des hopitaux pour détections covid et soins ect, sont excessivement chère ce qui fait gonflé la moyenne. Contrairement à une opération chirurgicale, l'hospitalisation pour Covid-19 ne permet pas de bénéficier d'une prise en charge des soins à 100%. Le reste à charge moyen dans les hôpitaux parisiens s'élève à 1.500 euros sans mutuelle. Ceci explique aussi pour la moyenne des paiements remboursés n'est pas aussi élevée.

Corrélation avec la période 2020 Covid-19

Nous allons maintenant avec quelques études sur un dataset concernant le covid-19 en France, faire si possible des liens avec les mois de 02/2020 et 04/2020.

Correlation avec les chiffres du covid Repartition du covid par tranche d'age :

Répartition spatio-temporelle du covid : carte de la répartition en france sur 2020 et sur un moi choisi des réanimations et des hospitalisations, évolution des réa et hospitalisations sur 2020v